Learning from human preferences - nikkie-memos

Learning from human preferences

https://openai.com/index/learning-from-human-preferences/

OpenAI 2017

Atari

バク転をさせたい。人間はどちらがバク転しているか判定

AIは人間の選択を最もよく説明する報酬関数を見つける（TODO 原文確認）